Machine Learning Supported Diabetes Prediction with Apache Spark
نویسندگان
چکیده
Diyabet rahatsızlığı, insan vücudunun organlarını etkileyen kritik sağlık sorunlarından biridir. Bu nedenle, diyabet, 21. yüzyılda küresel bir sorunu olarak kabul edilmektedir. rahatsızlığın sonucu ortaya çıkan sorunlardan kaçınmak ve onları ağırlaşmadan önce tedavi etmek için diyabet rahatsızlığını tahmin edip işleyebilen sisteme ihtiyaç duyulmaktadır. Son yıllarda, alanında birçok erken teşhisi çeşitli teknolojik araçlar uygulamalar kullanılmaktadır. uygulamalardan birisi de veri madenciliği makine öğrenmesi teknikleri yardımıyla hastalığın analizlerin gerçekleştirilmesidir. araştırmada, son zamanlarda büyük işlemede oldukça popüler olan Apache Spark teknolojisi ile rahatsızlığı analizleri gerçekleştirilmektedir. Aynı zamanda analizlerde kullanılan MLlib kütüphanesindeki beş farklı sınıflandırma algoritmalarının performansları karşılaştırılmış Rasgele Orman (RO) algoritmasının en iyi performansa sahip olduğu görülmektedir. Gerçekleştirilen analizler sonucunda teknolojisinin bu tarz rahatsızlıkların belirlenmesinde kullanılabileceğini göstermektedir.
منابع مشابه
Benchmarking Apache Spark with Machine Learning Applications
We benchmarked Apache Spark with a popular parallel machine learning training application, Distributed Stochastic Gradient Descent for Matrix Factorization [5] and compared the Spark implementation with alternative approaches for communicating model parameters, such as scheduled pipelining using POSIX socket or MPI, and distributed shared memory (e.g. parameter server [13]). We found that Spark...
متن کاملMLlib: Machine Learning in Apache Spark
Apache Spark is a popular open-source platform for large-scale data processing that is well-suited for iterative machine learning tasks. In this paper we present MLlib, Spark’s open-source distributed machine learning library. MLlib provides efficient functionality for a wide range of learning settings and includes several underlying statistical, optimization, and linear algebra primitives. Shi...
متن کاملEfficient iterative virtual screening with Apache Spark and conformal prediction
BACKGROUND Docking and scoring large libraries of ligands against target proteins forms the basis of structure-based virtual screening. The problem is trivially parallelizable, and calculations are generally carried out on computer clusters or on large workstations in a brute force manner, by docking and scoring all available ligands. CONTRIBUTION In this study we propose a strategy that is b...
متن کاملBalanced Graph Partitioning with Apache Spark
A significant part of the data produced every day by online services is structured as a graph. Therefore, there is the need for efficient processing and analysis solutions for large scale graphs. Among the others, the balanced graph partitioning is a well known NP-complete problem with a wide range of applications. Several solutions have been proposed so far, however most of the existing state-...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ژورنال
عنوان ژورنال: Düzce Üniversitesi bilim ve teknoloji dergisi
سال: 2022
ISSN: ['2148-2446']
DOI: https://doi.org/10.29130/dubited.999048